
%!TEX program = xelatex
%!TEX TS-program = xelatex
%!TEX encoding = UTF-8 Unicode

\documentclass[10pt]{article} 

\input{wang_preamble.tex}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage{titling}
\setlength{\droptitle}{-2cm}   % This is your set screw

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%文档的题目、作者与日期
%%\author{王立庆（2019级数学与应用数学1班）}
%\author{学号 \underline{\hspace{4cm}}\,\,\,\, 姓名 \underline{\hspace{4cm}}  }
%%\title{高等代数第六章：向量空间}
%\title{统计软件考试解答 }
%%\date{\vspace{-3ex}}
%\renewcommand{\today}{\number\year \,年 \number\month \,月 \number\day \,日}
%\date{2023年4月24日}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{document}

%\maketitle

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\begin{center}

{\Large\bf \H 上海立信会计金融学院期终考试卷 } \hspace{0.3cm} {\Large \underline{ A }卷 解答}

\vspace{0.3cm}

{\large \bf \H 2023 $\sim$ 2024 学年 第 二 学期 }

\vspace{0.3cm}

{\large \bf \H \underline{ \emph{2021级数学与应用数学专业} } 《\underline{ \emph{多元统计分析} }》 课程代码：\underline{ 160290220 }  }

\end{center}

\vspace{0.3cm}

本次考试共10题，每题10分。
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{enumerate}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %1 第2.2节：随机向量的数字特征：第33页例子2.2.3
设随机向量 $\vec{x}=(x_1,x_2)^t$ 的数学期望和协方差矩阵分别是
\begin{eqnarray*}
\vec{\mu}=\begin{pmatrix}2 \\ 3 \end{pmatrix}, \,\,\, 
\Sigma=\begin{pmatrix} 9&3 \\ 3&4 \end{pmatrix}.
\end{eqnarray*}
\begin{enumerate}%[label={(\arabic*)}]
\item  求 $\vec{x}$ 的相关矩阵 $R$. 
\item  设 $y_1=x_1-x_2, y_2=x_1+2x_2$, 求 $\vec{y} = (y_1,y_2)^t$ 的数学期望和协方差矩阵。
\end{enumerate}

{\color{red}解答：
\begin{enumerate}%[label={(\arabic*)}]

\item  随机变量 $x_1,x_2$ 的方差分别为协方差矩阵的对角线元素 $9,4$. 所以相关矩阵为
$$R= \begin{pmatrix} 1&\frac{3}{(3)(2)} \\ \frac{3}{(3)(2)}&1 \end{pmatrix} 
= \begin{pmatrix} 1&\frac{1}{2} \\ \frac{1}{2}&1 \end{pmatrix}. $$ 
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\item  这个变量代换的公式如下，记其中的变换矩阵为 $C$,  
$$
\begin{pmatrix}y_1 \\ y_2 \end{pmatrix}
=
\begin{pmatrix}1 & -1 \\ 1 & 2 \end{pmatrix}
\begin{pmatrix}x_1 \\ x_2 \end{pmatrix}. 
$$
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

根据数学期望的线性性质，随机向量 $\vec{y}=(y_1,y_2)^t$ 的数学期望为 
$$
E(\vec{y})=E(C\vec{x}) = CE(\vec{x}) = 
\begin{pmatrix}1 & -1 \\ 1 & 2 \end{pmatrix}\begin{pmatrix}2 \\ 3 \end{pmatrix}
= \begin{pmatrix}-1 \\ 8 \end{pmatrix}. 
$$
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

根据协方差的线性性质，随机向量 $\vec{y}=(y_1,y_2)^t$ 的协方差矩阵为 
\begin{equation*}
\begin{aligned}
V(\vec{y}) 
&= \mathrm{cov}(\vec{y},\vec{y}\,^t) 
= \mathrm{cov}(C\vec{x},\vec{x}\,^tC^t) 
= C\cdot \mathrm{cov}(\vec{x},\vec{x}\,^t)\cdot C^t 
= C\Sigma C^t \\ 
&= \begin{pmatrix}1 & -1 \\ 1 & 2 \end{pmatrix}
\begin{pmatrix} 9&3 \\ 3&4 \end{pmatrix}
\begin{pmatrix}1 & 1 \\ -1 & 2 \end{pmatrix}
= \begin{pmatrix}7 & 4 \\ 4 & 37 \end{pmatrix}. 
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %2 第3.2节：多元正态分布的性质：第56页例子3.2.8
设 $\vec{x} = (x_1,x_2,x_3)^t\sim N_3(\mu,\Sigma)$, 这里 
$$
\vec{\mu}=\begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix}, \,\,
\Sigma=\begin{pmatrix} 4 & 2 & 3 \\ 2 & 9 & 5 \\ 3 & 5 & 16 \end{pmatrix}. 
$$
求已知 $x_3$ 时，$(x_1, x_2)^t$ 的条件分布。

{\color{red}解答：先按题目要求将 $(x_1,x_2)$ 与 $x_3$ 分开，将均值向量和协方差矩阵分块表示，可得
$$
\mu = \left( \begin{array}{c} 1\\ 2 \\ \hline 3 \end{array} \right) = \begin{pmatrix} \mu_{1,2} \\ \mu_3 \end{pmatrix}, \,\,\, 
\Sigma = \left( \begin{array}{cc|c} 4 & 2 & 3 \\ 2 & 9 & 5 \\ \hline 3 & 5 & 16 \end{array} \right) 
= \begin{pmatrix} \Sigma_{11,22} & \Sigma_{12,3} \\ \Sigma_{12,3}^t & \Sigma_{33} \end{pmatrix}. 
$$

所求条件分布为二维正态分布，其均值向量和协方差矩阵分别为
%\dotfill (\underline{\hspace{0.2cm} 4分+6分 \hspace{0.2cm}})
\begin{equation*}
\begin{aligned}
\mu_{(1,2)\mid 3} &= \mu_{1,2} + \Sigma_{12,3}\Sigma_{33}^{-1}(x_3-\mu_3) 
= \begin{pmatrix} 1 \\ 2 \end{pmatrix} + \begin{pmatrix} 3 \\ 5 \end{pmatrix}\cdot \frac{1}{16}(x_3-3)
= \frac{1}{16}\begin{pmatrix} 7+3x_3 \\ 17+5x_3 \end{pmatrix},
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 4分 \hspace{0.2cm}})

\begin{equation*}
\begin{aligned}
\Sigma_{(1,2)\mid 3} &= \Sigma_{11,22} - \Sigma_{12,3}\Sigma_{33}^{-1}\Sigma_{12,3}^t  
= \begin{pmatrix} 4 & 2 \\ 2 & 9 \end{pmatrix} 
- \begin{pmatrix} 3 \\ 5 \end{pmatrix} \cdot \frac{1}{16} \begin{pmatrix} 3 & 5 \end{pmatrix} 
= \frac{1}{16}\begin{pmatrix} 55 & 17 \\ 17 & 119 \end{pmatrix}. 
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 6分 \hspace{0.2cm}})

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %3 第3.4节：复相关系数：第61页复相关系数的定义
设有随机变量 $y$ 和随机向量 $\vec{x}=(x_1,\cdots,x_p)^t$, 设 
$$
E\begin{pmatrix} y \\ \vec{x} \end{pmatrix} = \begin{pmatrix} \mu_y \\ \mu_{\vec{x}} \end{pmatrix}, \,\,
V\begin{pmatrix} y \\ \vec{x} \end{pmatrix} = \begin{pmatrix} \sigma_{yy} & \sigma_{\vec{x}y}^t \\ \sigma_{\vec{x}y} & \Sigma_{\vec{x}\vec{x}}  \end{pmatrix}. 
$$
\begin{enumerate}
\item  求 $y$ 和线性组合 $\vec{\ell}\,^t \vec{x}$ 的相关系数的平方，其中 $\vec{\ell} = (\ell_1,\cdots,\ell_p)^t$ 是 $p$ 维常数向量。
\item  当 $\vec{\ell}$ 取何值时，相关系数的平方取最大值？
\end{enumerate} 

{\color{red}解答：
\begin{enumerate}
\item  
随机变量 $y$ 和线性函数 $\vec{\ell}\,^t \vec{x}$ 相关系数的平方为
$$
\rho^2(y, \vec{\ell}\,^t \vec{x}) = \frac{\mathrm{cov}^2(y, \vec{\ell}\,^t \vec{x}) } {V(y)V( \vec{\ell}\,^t \vec{x}) } 
= \frac{\mathrm{cov}^2 (y, \vec{x}\,^t \vec{\ell} ) } {V(y)V(\vec{\ell}\,^t \vec{x}) }  
= \frac{\mathrm{cov}^2 (y, \vec{x}\,^t) \vec{\ell} } {V(y)\vec{\ell}\,^t V(\vec{x}) \vec{\ell} }  
= \frac{ ( \sigma_{\vec{x}y}^t \vec{\ell} )^2 }{ \sigma_{yy} \vec{\ell}\,^t \Sigma_{\vec{x}\vec{x}} \vec{\ell}} \,\, . 
$$
\dotfill (\underline{\hspace{0.2cm} 4分 \hspace{0.2cm}})

\item  
因为 $\Sigma$ 是正定矩阵，所以存在对称矩阵 $S$ 使得 $\Sigma_{\vec{x}\vec{x}}=SS$. 
取变量代换 $\vec{\ell}=S^{-1}\vec{m}$, 则
$$
\frac{ ( \sigma_{\vec{x}y}^t \vec{\ell} )^2 } { \vec{\ell}\,^t \Sigma_{\vec{x}\vec{x}} \vec{\ell} }
= \frac{ (\sigma_{\vec{x}y}^t S^{-1}\vec{m} )^2 }{ \vec{m}\,^t \vec{m} }
$$
由经典的柯西不等式可知，当列向量 $\vec{m}$ 与行向量 $\sigma_{\vec{x}y}^t S^{-1}$ 这两个向量的分量对应成比例的时候，上式达到最大，因此取 
$\vec{m} = S^{-1}\sigma_{\vec{x}y} $, 可得所求相关系数的平方的最大值为
$$
\frac{ (\sigma_{\vec{x}y}^t S^{-1} S^{-1}\sigma_{\vec{x}y} )^2 }{ \sigma_{\vec{x}y}^t S^{-1} S^{-1}\sigma_{\vec{x}y} }
= \frac{ (\sigma_{\vec{x}y}^t \Sigma_{\vec{x}\vec{x}} \sigma_{\vec{x}y} )^2 }{ \sigma_{\vec{x}y}^t \Sigma_{\vec{x}\vec{x}}\sigma_{\vec{x}y} } 
= \sigma_{\vec{x}y}^t \Sigma_{\vec{x}\vec{x}}\sigma_{\vec{x}y}. 
$$
此时 $\vec{\ell} = \Sigma_{\vec{x}\vec{x}}^{-1}\sigma_{\vec{x}y}$, 相关系数的平方的最大值是 
$$
\rho^2_{y\cdot \vec{x} } 
= \frac{ \sigma_{\vec{x}y}^t  \Sigma_{\vec{x}\vec{x}}^{-1} \sigma_{\vec{x}y} } { \sigma_{yy} } . 
$$
\dotfill (\underline{\hspace{0.2cm} 6分 \hspace{0.2cm}})

\end{enumerate} 

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %4 第4.2节：第87页单个总体均值向量的检验
设 $\vec{x}_1,\vec{x}_2,\cdots,\vec{x}_n$ 是取自多元正态总体 $\vec{x}\sim N_p(\mu,\Sigma)$ 的一个样本，设 $\Sigma>0$. 
分别在下述两种情况下，进行假设检验
$H_0: \vec{\mu}=\vec{\mu}_0, \,\,\, \mathrm{vs.} \,\,\, \vec{\mu}\neq \vec{\mu}_0. $
写出检验统计量和拒绝域。
\begin{enumerate}
\item  设 $\Sigma$ 已知。
\item  设 $\Sigma$ 未知。
\end{enumerate}

{\color{red}解答：
根据多元正态分布的性质，样本均值 $\overline{\vec{x}}$ 的分布为 $N_p(\vec{\mu},\frac{1}{n}\Sigma)$. 
\begin{enumerate}
\item  当 $\Sigma$ 已知时，取统计量 
$$
T_0^2 = (\overline{\vec{x}}-\vec{\mu}_0)^t \left(\frac{1}{n}\Sigma \right)^{-1} (\overline{\vec{x}}-\vec{\mu}_0).
$$
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

当 $H_0: \vec{\mu}=\vec{\mu}_0$ 为真时，$T_0^2\sim \chi^2(p)$, 自由度为 $p$ 的卡方分布。 

当 $T_0^2\ge \chi^2_\alpha(p)$ 时，拒绝零假设。
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\item  当 $\Sigma$ 未知时，使用样本协方差矩阵 
$$
S = \frac{1}{n-1} \sum\limits_{i=1}^{n} (\vec{x}_i - \overline{\vec{x}})^t (\vec{x}_i - \overline{\vec{x}}) 
$$
代替总体协方差矩阵，取 Hotelling 统计量
$$
T^2 = (\overline{\vec{x}}-\vec{\mu}_0)^t \left(\frac{1}{n} S \right)^{-1} (\overline{\vec{x}}-\vec{\mu}_0).
$$
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

当 $H_0: \vec{\mu}=\vec{\mu}_0$ 为真时，$T^2$ 统计量的一个倍数服从自由度为 $(p,n-p)$ 的F-分布，即有 
$$
\frac{n-p}{p(n-1)}T^2 \sim F(p,n-p). 
$$ 
当 $\frac{n-p}{p(n-1)}T^2\ge F_\alpha(p,n-p)$ 时，拒绝零假设。
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %5 第4.3节：第95页两个总体均值的比较推断
设两个独立样本 $\vec{x}_1,\vec{x}_2,\cdots,\vec{x}_{n_1}$ 和 $\vec{y}_1,\vec{y}_2,\cdots,\vec{y}_{n_2}$ 分别来自多元正态总体 $N_p(\vec{\mu}_1,\Sigma)$ 和 $N_p(\vec{\mu}_2,\Sigma)$. 考虑假设检验 $$H_0:\vec{\mu}_1=\vec{\mu}_2, \,\,\mathrm{vs.} \,\, H_1:\vec{\mu}_1\neq \vec{\mu}_2. $$
\begin{enumerate}
\item  写出检验统计量和拒绝规则。
\item  写出一切线性组合 $\{a^t(\vec{\mu}_1-\vec{\mu}_2),a\in\mathbb{R}^p\}$ 的置信度为 $1-\alpha$ 的联合置信区间。
\item  写出线性组合 $\{a_i^t(\vec{\mu}_1-\vec{\mu}_2),i=1,2,\cdots,k\}$ 的置信度为 $1-\alpha$ 的 Bonferroni 联合置信区间。
\end{enumerate}

{\color{red}解答：
\begin{enumerate}
\item  检验统计量为 Hotelling 统计量
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})
$$
T^2 = (\overline{\vec{x}}-\overline{\vec{y}})^t \left[ \left(\frac{1}{n_1}+\frac{1}{n_2} \right) S_p \right ] ^{-1} (\overline{\vec{x}}-\overline{\vec{y}}).
$$
其中
$$
S_p = \frac{(n_1-1)S_1 + (n_2-1)S_2}{n_1+n_2-2}. 
$$

当 $H_0:\vec{\mu}_1=\vec{\mu}_2 $ 为真时，
$$
\frac{n_1+n_2-p-1}{p(n_1+n_2-2)}T^2 \sim F(p, n_1+n_2-p-1). 
$$
当 $\frac{n_1+n_2-p-1}{p(n_1+n_2-2)}T^2 \ge F_\alpha(p, n_1+n_2-p-1)$ 时，拒绝零假设。
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\item  一切线性组合 $\{a^t(\mu_1-\mu_2),a\in\mathbb{R}^p\}$ 的置信度为 $1-\alpha$ 的联合置信区间为
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})
$$
a^t(\overline{\vec{x}}-\overline{\vec{y}}) \pm T_\alpha (p,n_1+n_2-2)\sqrt{\frac{n_1+n_2}{n_1n_2}} \sqrt{a^tS_pa}. 
$$

\item  线性组合 $\{a_i^t(\mu_1-\mu_2)\}_{i=1}^k$ 的置信度为 $1-\alpha$ 的 Bonferroni 联合置信区间为 
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})
$$
a_i^t(\overline{\vec{x}}-\overline{\vec{y}}) \pm t_{\frac{\alpha}{2k}} (n_1+n_2-2)\sqrt{\frac{n_1+n_2}{n_1n_2}} \sqrt{a_i^tS_pa_i}. 
$$


\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %6 第4.5节：第105页多个总体均值的比较检验
设有 $k$ 个总体 $\pi_1,\pi_2,\cdots,\pi_k$, 它们的分布分别是 $N_p(\vec{\mu}_1,\Sigma), N_p(\vec{\mu}_2,\Sigma), \cdots, N_p(\vec{\mu}_k,\Sigma)$. 从这 $k$ 个总体中各自独立地抽取一个样本，取自总体 $\pi_i$ 的样本为 $\vec{x}_{i1}, \vec{x}_{i2},\cdots,\vec{x}_{in_i}$, 这个样本的容量为 $n_i$.（这里的每个 $\vec{x}_{ij}$ 都是有 $p$ 个分量的列向量。）
考虑假设检验 $$H_0: \vec{\mu}_1=\vec{\mu}_2=\cdots=\vec{\mu}_k, \,\,\, \mathrm{vs.} \,\,\, H_1: \exists i\neq j, \,\mathrm{s.t.}\, \vec{\mu}_i\neq \vec{\mu}_j. $$
写出检验统计量和拒绝规则。

{\color{red}解答：
记 $\overline{\vec{x}_i}$ 为总体 $\pi_i$ 的那个样本的均值，
记 $\overline{\vec{x}}$ 为所有总体的所有样本的均值，
定义三个平方和
\begin{equation*}
\begin{aligned}
T & =SST = \sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (\vec{x}_{ij}-\overline{\vec{x}})(\vec{x}_{ij}-\overline{\vec{x}})^t, \\
E & =SSE = \sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (\vec{x}_{ij}-\overline{\vec{x}}_i)(\vec{x}_{ij}-\overline{\vec{x}}_i)^t, \\
H & =SSTR = \sum\limits_{i=1}^{k} \sum\limits_{j=1}^{n_i} (\overline{\vec{x}_{i}}-\overline{\vec{x}})(\overline{\vec{x}_{i}}-\overline{\vec{x}})^t.  
\end{aligned}
\end{equation*}
定义威尔克斯 $\Lambda$ 统计量 
\dotfill (\underline{\hspace{0.2cm} 6分 \hspace{0.2cm}})
$$
\Lambda = \frac{|E|}{|E+H|}. 
$$
当原假设 $H_0$ 为真时，$\Lambda$ 服从参数为 $(p,k-1,n-k)$ 的威尔克斯分布。

当 $\Lambda\le \Lambda_{1-\alpha} (p,k-1,n-k)$ 时，拒绝原假设。
\dotfill (\underline{\hspace{0.2cm} 4分 \hspace{0.2cm}})

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %7 第5.2节：距离判别：第130页，两组距离判别
设两组 $\pi_1$ 和 $\pi_2$ 的均值分别为 $\vec{\mu}_1$ 和 $\vec{\mu}_2$, 协方差矩阵分别为 $\Sigma_1$ 和 $\Sigma_2$. 
设 $\Sigma_1=\Sigma_2=\Sigma$. 设 $\vec{x}$ 是一个新的样品，使用距离判别法判断它来自哪一组。
\begin{enumerate}
\item  写出平方马氏距离的计算公式和判别规则。
\item  设两组均为正态总体，写出误判概率 $P(2\mid 1)$ 和 $P(1\mid 2)$ 的计算公式。
\end{enumerate}

{\color{red}解答：
\begin{enumerate}
\item  平方马氏距离的计算公式为
\begin{equation*}
\begin{aligned}
d^2(\vec{x},\pi_1) &= (\vec{x}-\vec{\mu}_1)^t\Sigma^{-1}(\vec{x}-\vec{\mu}_1), \\ 
d^2(\vec{x},\pi_2) &= (\vec{x}-\vec{\mu}_2)^t\Sigma^{-1}(\vec{x}-\vec{\mu}_2). 
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

当 $d^2(\vec{x},\pi_1)\le d^2(\vec{x},\pi_2)$, 即 
\begin{equation*}
\begin{aligned}
W(\vec{x}) &= -\frac{1}{2} \left[ d^2(\vec{x},\pi_1)- d^2(\vec{x},\pi_2) \right] \\ 
&= (\vec{\mu}_1-\vec{\mu}_2)^t \Sigma^{-1} \left( \vec{x}-\frac{\vec{\mu}_1+\vec{\mu}_2}{2}\right) \ge 0
\end{aligned}
\end{equation*}
时，判断新样品 $\vec{x}$ 为 $\pi_1$ 组，不然为 $\pi_2$ 组。
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\item  误判概率的定义为条件概率
\begin{equation*}
\begin{aligned}
P(2\mid 1) & =  P\left[ W(\vec{x})<0 \mid \vec{x}\in \pi_1 \right], \\ 
P(1\mid 2) & =  P\left[ W(\vec{x})\ge 0 \mid \vec{x}\in \pi_2 \right]. 
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

记 $\Delta^2 = (\vec{\mu}_1-\vec{\mu}_2)^t\Sigma^{-1}(\vec{\mu}_1-\vec{\mu}_2)$, 当两组均为正态总体时，误判概率均为
$\Phi(-\frac{\Delta}{2})$. 

\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %8 第6.3节：系统聚类法：最短距离法 
考虑使用最短距离法的系统聚类法。
\begin{enumerate}
\item  两类之间的距离是怎么定义的？
\item  这种聚类分析的步骤是什么？
\end{enumerate}

{\color{red}解答：
\begin{enumerate}
\item  这时，两类之间的距离定义为两类中最近的两个样品之间的距离。即 
$$D_{KL} = \underset{i\in G_K, j\in G_L}{\min}d_{ij}. $$
\dotfill (\underline{\hspace{0.2cm} 4分 \hspace{0.2cm}})

\item  这种聚类分析的步骤如下。
\begin{enumerate}[label={(\arabic*)}]
\item  计算样品两两之间的距离，得到对称矩阵 $D_{(0)}$. 
\item  选择 $D_{(0)}$ 的对角线之外的最小元素，设为 $D_{KL}$, 将 $G_K$ 与 $G_L$ 合为一类 $G_M$. 
\item  计算新类 $G_M$ 与其它类的距离，得到低一阶的对称矩阵 $D_{(1)}$. 
\item  重复上述操作，直到所有元素都合为一类。
\end{enumerate}
\dotfill (\underline{\hspace{0.2cm} 6分 \hspace{0.2cm}})

\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %9 第7.2节：总体的主成分：第一主成分和第二主成分的计算方法
设 $\vec{x}=(x_1,x_2,\cdots,x_p)^t$ 是一个 $p$ 维随机向量，设均值向量为 $\vec{\mu} = E(\vec{x})$, 协方差矩阵为 $\Sigma=V(\vec{x})$. 
写出下述第一主成分和第二主成分的计算步骤，
\begin{equation*}
\left\{
\begin{aligned}
y_1 &= a_{11}x_1 + a_{21}x_2 + \cdots + a_{p1}x_p = \vec{a}_1^t \vec{x}, \\ 
y_2 &= a_{12}x_1 + a_{22}x_2 + \cdots + a_{p2}x_p = \vec{a}_2^t \vec{x}. 
\end{aligned}
\right.
\end{equation*}


{\color{red}解答：
\begin{enumerate}[label={(\arabic*)}]
\item  在 $\vec{a}_1$ 为单位向量即 $\vec{a}_1^t\vec{a}_1=1$ 的条件下，求 $\vec{a}_1$ 使得第一主成分的方差 $V(\vec{a}_1^t\vec{x})$ 最大。

\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\item  因为 $V(\vec{a}_1^t \vec{x}) = \vec{a}_1^t V(\vec{x}) \vec{a}_1 = \vec{a}_1^t \Sigma \vec{a}_1$, 所以当 $\vec{a}_1$ 等于 $\Sigma$ 的最大特征值的单位特征向量的时候，这个二次型 $\vec{a}_1^t \Sigma \vec{a}_1$ 取最大值。
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\item  第二主成分要与第一主成分无关，即 $\mathrm{cov}(y_1,y_2)=0$. 因此有 
$$
\mathrm{cov}(y_1,y_2) = \mathrm{cov}(\vec{a}_1^t \vec{x}, \vec{a}_2^t \vec{x})
= \mathrm{cov}(\vec{a}_1^t \vec{x}, \vec{x}^t \vec{a}_2) = \vec{a}_1^t\mathrm{cov}(\vec{x},\vec{x}^t) \vec{a}_2 = \vec{a}_1^t\Sigma \vec{a}_2=0. 
$$
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\item  当 $\vec{a}_2$ 等于 $\Sigma$ 的第二大特征值的单位特征向量的时候，符合条件 $\vec{a}_1^t\Sigma \vec{a}_2=0$  并且使第二主成分的方差 $V(\vec{a}_2^t \vec{x})$ 最大。
\dotfill (\underline{\hspace{0.2cm} 3分 \hspace{0.2cm}})

\end{enumerate}

}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%\newpage 
\item %10 第8.3节：因子模型的参数估计：第257页，主成分法
设有 $p$ 维可观测随机向量 $\vec{x}=(x_1,x_2,\cdots,x_p)^t$, 
设 $\vec{x}_1,\vec{x}_2,\cdots,\vec{x}_n$ 是一组 $p$ 维样本。
\begin{enumerate}
\item  写出均值向量 $\vec{\mu}$ 和协方差矩阵 $\Sigma$ 的估计。 
\item  写出正交因子模型 $\vec{x}=\vec{\mu}+A\vec{f}+\vec{\varepsilon}$ 的假设条件并简要解释。
\item  使用主成分法估计因子载荷矩阵 $A$ 与特殊方差矩阵 $D$. 
\end{enumerate}

{\color{red}解答：
\begin{enumerate}
\item  均值向量 $\vec{\mu}$ 和协方差矩阵 $\Sigma$ 的估计分别为样本均值和样本协方差矩阵
$$
\overline{\vec{x}} = \frac{1}{n}\sum\limits_{i=1}^{n} \vec{x}_i, \,\, 
S = \frac{1}{n-1}\sum\limits_{i=1}^{n} (\vec{x}_i-\overline{\vec{x}})(\vec{x}_i-\overline{\vec{x}})^t. 
$$
\dotfill (\underline{\hspace{0.2cm} 2分 \hspace{0.2cm}})

\item  正交因子模型的假设条件有如下五条：
\begin{enumerate}[label={(\arabic*)}]
\item  $E(\vec{f})=0$: 因为有常数项 $\vec{\mu}$, 所以可以假设每个公共因子的均值为零，以简化模型。
\item  $E(\vec{\varepsilon})=0$: 因为有常数项 $\vec{\mu}$, 所以可以假设每个特殊因子的均值为零，以简化模型。
\item  $V(\vec{f})=I$: 假设公共因子之间是互不相关的；又因为可以调整载荷矩阵 $A$,  所以可以假设每个公共因子的方差是1，以简化模型。
\item  $V(\vec{\varepsilon})=D=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_p^2)$: 假设特殊因子之间也是互不相关的。
\item  $\mathrm{cov}(\vec{f},\vec{\varepsilon})=0$: 假设公共因子和特殊因子之间也是互不相关的。
\end{enumerate}
\dotfill (\underline{\hspace{0.2cm} 5分 \hspace{0.2cm}})

\item  %使用主成分法估计因子载荷矩阵 $A$ 与特殊方差矩阵 $D$. 
求出样本协方差矩阵 $S$ 的谱分解，设为 
$$
S=\hat{\lambda}_1\hat{t}_1\hat{t}_1^t + \cdots + \hat{\lambda}_p\hat{t}_p\hat{t}_1^p, 
$$
其中特征值从大到小排列
$
\hat{\lambda}_1 \ge \cdots \ge \hat{\lambda}_p. 
$
\dotfill (\underline{\hspace{0.2cm} 1分 \hspace{0.2cm}})

选取较小的因子数 $m<p$, 使得累计贡献率 
$$
\frac{\hat{\lambda}_1+\cdots+\hat{\lambda}_m}{\hat{\lambda}_1+\cdots+\hat{\lambda}_m+\cdots+\hat{\lambda}_p}
$$
达到一个较高的水平。
将样本协方差矩阵  $S$ 的前 $m$ 个特征值的单位特征向量分别乘以特征值的平方根，按列排列成一个 $p\times m$ 矩阵，得到因子载荷矩阵 $A$ 的估计
\begin{equation*}
\begin{aligned}
\hat{A} =\left( \sqrt{\hat{\lambda}_1} \hat{t}_1, \cdots, \sqrt{\hat{\lambda}_m} \hat{t}_m \right).
\end{aligned}
\end{equation*}
\dotfill (\underline{\hspace{0.2cm} 1分 \hspace{0.2cm}})

保留 $S-\hat{A}\hat{A}^t$ 的对角线元素，其余元素改成零，得到特殊方差矩阵的估计 $\hat{D}$.  
\dotfill (\underline{\hspace{0.2cm} 1分 \hspace{0.2cm}})


\end{enumerate}


}

\vspace{0.2cm}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%



%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

\end{enumerate}

\end{document}





